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最 佳 实践 


e 避免 使 用 GroupByKey 
。 勿 在 大 型 RDD 上 直接 调用 collect 


避免 使 用 GroupByKey 


让 我 们 看 一 下 使 用 两 种 不 同 的 方式 去 计算 单词 的 个 数 ， 第 一 种 方式 使 用 reduceByKey 另外 一 种 方式 使 用 
groupByKey : 


val words = Array(yone, two two “threet, “three”, " three") 
val wordPairsRDD = sc.parallelize(words).map(word => (word, 1)) 


val whordCountsWithReduce = wordPairsRDD 
.reduceByKey(_ + >) 
UONI) 


val wordCountsWithGroup = wordPairsRDD 
. groupByKey( ) 
Mavis S Eszel; en Zs) 
Correcto) 


虽然 两 个 函数 都 能 得 出 正确 的 结果 ， reduceByKey 更 适合 使 用 在 大 数据 集 上 。 这 是 因为 Spark 知道 它 可 
以 在 每 个 分 区 移动 数据 之 前 将 输出 数据 与 一 个 共用 的 key 结合 。 


借助 下 图 可 以 理解 在 reduceBykey 里 发 生 了 什么 。 注意 在 数据 对 被 搬移 前 同一 机 器 上 同样 的 key 是 怎样 
被 组 合 的 ( reduceByKey 中 的 lamdba WR). Wa lamdba 本 数 在 每 个 区 上 被 再 次 调用 来 将 所 有 值 reduce 


成 一 个 最 终结 果 。 


ReduceByKey 
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另 一 方面 ， 当 调用 groupByKey 时 ， 所 有 的 键 值 对 (key-value pair) 都 会 被 移动 。 在 网 络 上 传输 这 些 数 据 非 
常 没有 必要 。 


为 了 确定 将 数据 对 移 到 哪个 主机 ，Spark 会 对 数据 对 的 key 调用 一 个 分 区 算法 。 当 移 动 的 数据 量 大 于 单 台 
执行 机 器 内 存 总 量 时 Spark 会 把 数据 保存 到 磁盘 上 。 不 过 在 保存 时 每 次 会 处 理 一 个 key 的 数据 ， 所 以 当 单 
个 key 的 键 值 对 超过 内 存 容 量 会 存在 内 存 浴 出 的 异常 。 这 将 会 在 之 后 发 行 的 Spark 版 本 中 更 加 优雅 地 处 
理 ， 这 样 的 工作 还 可 以 继续 完善 。 尽管 如 此 ， 仍 应 避免 将 数据 保存 到 磁盘 上 ， 这 会 严重 影响 性 能 。 


GroupByKey 





你 可 以 想象 一 个 非常 大 的 数据 集 ， 在 使 用 reduceByKey 和 groupBykey 时 他 们 的 差别 会 被 放大 更 多 倍 。 


以 下 辑 数 应 该 优先 于 groupByKey : 


e combineByKey 组 合 数据 ， 但 是 组 合 之 后 的 数据 类 型 与 输入 时 值 的 类 型 不 一 样 。 
e foldBykey 合并 每 一 个 key 的 所 有 值 ， 在 级 联 图 数 和 " 需 值 "中 使 用 。 


不 要 将 大 型 RDD 的 所 有 元 素 拷贝 到 请 求 驱动 者 


如 果 你 的 驱动 机 器 (submit 请 求 的 机 器 ) 内 存 容量 不 能 容纳 一 个 大 型 RDD 里 面 的 所 有 数据 ， 不 要 做 以 下 操 
VE : 


val values = myVeryLargeRDD.collect() 
Collect 操作 会 试图 将 RDD 里 面 的 每 一 条 数据 复制 到 驱动 机 器 (submit 请 求 的 机 器 ) 上 ， 这 时 候 会 发 生 内 存 
浴 出 和 月 溃 。 


相反 ， 你 可 以 调用 take 或 者 takeSample 来 确保 数据 大 小 的 上 限 。 或 者 在 你 的 RDD 中 使 用 过 滤 或 抽 
样 。 


同样 ， 要 说 愤 使 用 下 面 的 操作 ， 除 非 你 能 确保 数据 集 小 到 足以 存储 在 内 存 中 : 


e countByKey 
e countByValue 


e collectAsMap 


如 果 你 确实 需要 将 RDD 里 面 的 大 量 数据 保存 在 内 存 中 ， 你 可 以 将 RDD 写成 一 个 文件 或 者 把 RDD 导出 到 
一 个 容量 足够 大 的 数据 库 中 。 


阅读 原文 
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e Job aborted due to stage failure: Task not serializable 
。 缺失 依赖 

。 执行 start-all.sh 错误 - Connection refused 

。 Spark 组 件 之 间 的 网 络 连接 问题 


Job aborted due to stage failure: Task not serializable: 
如 果 你 能 看 到 以 下 错误 : 


org.apache.spark.SparkException: Job aborted due to stage failure: Task not serializable: 
jel ESÖ SSS SS Ss 


上 述 的 错误 在 这 个 时 候 会 被 触发 : 当 你 在 master 上 初始 化 一 个 变量 ， 但 是 试图 在 worker 上 使 用 。 在 这 个 
示例 中 ， Spark Streaming 试图 将 对 象 序列 化 之 后 发 送 到 worker 上 ， 如 果 这 个 对 象 不 能 被 序列 化 就 会 失 
败 。 思 考 下 面 的 代码 片段 : 





NotSerializable notSerializable = new NotSerializable(); 
JavaRDD<String> rdd = sc.textFile("/tmp/myfile"); 


rdd.map(s -> notSerializable.doSomething(s)).collect(); 


这 段 代 码 会 触发 那个 错误 。 这 里 有 一 些 建议 修复 这 个 错误 : 


e 让 class 实现 序列 化 

e 在 作为 参数 传递 给 map 方法 的 lambda 表达 式 内 部 声明 实例 

。 在 每 一 台 机 器 上 创建 一 个 NotSerializable 的 静态 实例 

e 调用 rdd.forEachPartition 并 且 像 下 面 这 样 创建 NotSerializable 对 象 : 


rdd.forEachPartition(iter -> { 
NotSerializable notSerializable = new NotSerializable(); 
// ...NOw process iter 


3); 


阅读 原文 


缺失 依赖 


在 默认 状态 下 ，Maven 在 build 的 时 候 不 会 包含 所 依赖 的 jar 包 。 当 运行 一 个 Spark 任务 ， 如 果 Spark 
worker 机 器 上 没有 包含 所 依赖 的 jar 包 会 发 生 类 无 法 找到 的 错误 ( ClassNotFoundException )。 


有 一 个 简单 的 方式 ， 在 Maven 打包 的 时 候 创 建 shaded 或 uber 任务 可 以 让 那些 依赖 的 jar 包 很 好 地 打包 进 
去 。 


使 用 <scope>provided</scope> 可 以 排除 那些 没有 必要 打包 进去 的 依赖 ， 对 Spark 的 依赖 必须 使 用 
provided 标记 ， 因 为 这 些 依赖 已 经 包含 在 Spark cluster 中 。 在 你 的 worker 机 器 上 已 经 安装 的 jar 包 你 同 
样 需要 排除 掉 它们 。 


下 面 是 一 个 Maven pom.xml 的 例子 ， 工 程 了 包含 了 一 些 需要 的 依赖 ， 但 是 Spark 的 libraries 不 会 被 打包 
进去 ， 因 为 它 使 用 了 provided 


<project> 
<groupiId>com.databricks.apps.logs</groupId> 
<artifactId>log-analyzer</artifactId> 
<modelVersion>4.0.0</modelVersion> 
<name>Databricks Spark Logs Analyzer</name> 
<packaging>jar</packaging> 
<version>1.0</version> 
<repositories> 
<repository> 
<id>Akka repository</id> 
<url>http://repo.akka.io/releases</url> 
</repository> 
</repositories> 
<dependencies> 
<dependency> <!-- Spark --> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-core_2.10</artifactId> 
<version>1.1.0</version> 
<scope>provided</scope> 
</dependency> 
<dependency> <!-- Spark SQL --> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-sql_2.10</artifactId> 
<version>1.1.0</version> 
<scope>provided</scope> 
</dependency> 
<dependency> <!-- Spark Streaming --> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-streaming_2.10</artifactId> 
<version>1.1.0</version> 
<scope>provided</scope> 
</dependency> 
<dependency> <!-- Command Line Parsing --> 
<groupId>commons-cli</groupId> 
<artifactId>commons-cli</artifactId> 
<version>1.2</version> 
</dependency> 
</dependencies> 
<build> 
<plugins> 
<plugin> 


<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler -plugin</artifactId> 
<version>2.3.2</version> 
<configuration> 
<source>1.8</source> 
<target>1.8</target> 
</configuration> 
</plugin> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-shade-plugin</artifactId> 
<version>2.3</version> 
<executions> 
<execution> 
<phase>package</phase> 
<goals> 
<goal>shade</goal> 
</goals> 
</execution> 
</executions> 
<configuration> 
<filters> 
<filter> 
<artifact> 1 </artifact> 
<excludes> 
<exclude>META-INF/* .SF</exclude> 
<exclude>META-INF/* .DSA</exclude> 
<exclude>META-INF/* .RSA</exclude> 
</excludes> 
</filter> 
</failters> 
<finalName>uber -${project.artifactId}-${project.version}</finalName> 
</configuration> 
</plugin> 
</plugins> 
</build> 
</project> 


Aoo 
阅读 原文 


执行 start-all.sh 错误 : Connection refused 
如 果 是 使 用 Mac 操作 系统 运行 start-all.sh 发 生 下 面 错误 时 : 


% sh start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to ... 
localhost: ssh: connect to host localhost port 22: Connection refused 


su 
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你 需要 在 你 的 电脑 上 打开 “远程 登录 " 功能。 进入 系统 偏好 设置 ---> 3 


阅读 原文 


Spark 组 件 之 间 的 网 络 连接 问题 


Spark 组 件 之 间 的 网 络 连接 问题 会 导致 各 式 各 祥 的 警告 /错误 : 
e SparkContext <-> Spark Standalone Master: 


如 果 SparkContext 不 能 连接 到 Spark standalone master， 会 显示 下 面 的 错误 


ERROR AppClient$ClientActor: All masters are unresponsive! Giving up. 
ERROR SparkDeploySchedulerBackend: Spark cluster looks dead, giving up. 
ERROR TaskSchedulerImpl: Exiting due to error from cluster scheduler: Spark cluster 


BEE a 


如 果 driver 能 够 连接 到 master 但 是 master 不 能 回 连 到 driver E, xut Master 的 日 志 会 记录 多 次 党 试 
连接 driver 失败 并 且 会 报告 不 能 连接 : 





INFO Master: Registering app SparkPi 
INFO Master: Registered app SparkPi with ID app-XXX-0000 
INFO: Master: Removing app app-app-XXX-0000 


Lee a] 

INFO Master: Registering app SparkPi 

INFO Master: Registered app SparkPi with ID app-YYY-0000 
INFO: Master: Removing app app-YYY-0000 


feel 


在 这 样 的 情况 下 ，master 报告 应 用 已 经 被 成 功 地 注册 了 。 但 是 注册 成 功 的 通知 driver 接收 失败 了 ， 这 
时 driver 会 自动 党 试 几 次 重新 连接 直到 失败 的 次 数 太 多 而 放弃 重 试 。 其 结果 是 Master web UI 会 报告 
多 个 失败 的 应 用 ， 即 使 只 有 一 个 SparkContext 被 创建 。 


建议 
如 果 你 遇 到 上 述 的 任何 错误 : 


e 检查 workers 和 drivers 配置 的 Spark master 的 地 址 就 是 在 Spark master web UV 日 志 中 列 出 的 那个 
地 址 。 
e 设置 driver，master，worker 的 SPARK LOCAL IP 为 集群 的 可 寻 地 址 主机 名 。 


配置 hostnamelport 


Ki 


节 将 描述 我 们 如 何 绑 定 Spark 组 件 的 网 络 接口 和 端口 。 


在 每 节 里 ， 配 置 会 按照 优先 级 降序 的 方式 排列 。 如 果 前 面 所 有 配置 没有 提供 则 使 用 最 后 一 条 作为 默认 配 
置 。 


SparkContext actor System: 
Hostname: 


e spark.driver.host 属性 


e 如 果 SPARK LOCAL IP 环境 变量 的 设置 是 主机 名 (hostname)， 就 会 使 用 设置 时 的 主机 名 。 如 果 
SPARK LOCAL IP 设置 的 是 一 个 IP 地 址 ， 这 个 IP 地 址 会 被 解析 为 主机 名 。 
。 使 用 默认 的 IP 地 址 ， 这 个 IP 地 址 是 Java 接口 InetAddress.getLocalHost 方法 的 返回 值 。 


Port: 

e spark.driver.port 属性 。 

。 从 操作 系统 (OS) 选 择 一 个 临时 端口 。 

Spark Standalone Master | Worker actor systems: 
Hostname: 


e 4 Master 或 worker 进程 启动 时 使 用 --host 或 -h 选项 (或 是 过 期 的 选项 --ip 或 -i )。 

e SPARK_MASTER_HOST 环境 变量 ( 仅 应 用 在 Master +). 

e 如 果 SPARK LOCAL IP 环境 变量 的 设置 是 主机 名 (hostname)， 就 会 使 用 设置 时 的 主机 名 。 如 果 
SPARK LOCAL IP 设置 的 是 一 个 IP 地 址 ， 这 个 IP 地 址 会 被 解析 为 主机 名 。 

。 使 用 默认 的 IP 地 址 ， 这 个 IP 地 址 是 Java 接口 InetAddress.getLocalHost 方法 的 返回 值 。 


Port: 


e +4 Master 或 Worker 进程 启动 时 使 用 --port 或 -p 选项 。 
e SPARK_MASTER_PORT 或 SPARK WORKER PORT 环境 变量 (分 别 应 用 到 Master 和 worker E). 
。 从 操作 系统 (OS) 选 择 一 个 临时 端口 。 


阅读 原文 


性 能 优化 


。 一 个 RDD 有 多 少 个 分 区 
。 数据 本 地 性 


一 个 RDD 有 多 少 个 分 区 ? 
在 调试 和 故障 义理 的 时 候 ， 我 们 通常 有 必要 知道 RDD 有 多 少 个 分 区 。 这 里 有 几 个 方法 可 以 找到 这 些 信息 : 
使 用 UI 查看 在 分 区 上 执行 的 任务 数 


4 stage 执行 的 时 候 ， 你 可 以 在 Spark Ul 上 看 到 这 个 stage 上 的 分 区 数 。 下 面 的 例子 中 的 简单 任务 在 4 
个 分 区 上 创建 了 共 100 个 元 素 的 RDD ， 然 后 在 这 些 元 素 被 收集 到 driver 之 前 分 发 一 个 map 任务 : 


scala> val someRDD = sc.parallelize(1 to 100, 4) 
someRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <cons 


scala> someRDD.map(x => x).collect 
res Noreen) = Array Aa 2, S 2p Sy in Wy Gy Oy lO, tal, al, Gis}, De, as, als, aly, ais, al 


I 
在 Spark 的 应 用 UI 里 ， 从 下 面 截图 上 看 到 的 "Total Tasks" 代表 了 分 区 数 。 





|) Spark shell - Spark Stages x 5 z 
€ > CD localhost:4040/stages/ wv! @ A = 
Spa 机 Stages Storage Environment Executors Spark shell application Ul 

Spark Stages 


Total Duration: 5.9 min 
Scheduling Mode: FIFO 
Active Stages: 0 
Completed Stages: 1 
Failed Stages: 0 


Active Stages (0) 


Stage ld Description Submitted Duration Tasks: Succeeded/Total Input Shuffle Read Shuffle Write 





Completed Stages (1) 

Stage Shuffle Shuffle 
Id Description Submitted Duration }Succeeded/Total linput Read Write 
0 collect at <console>:15 +details 2014/09/17 71ms 


14:49:51 


使 用 UI 查看 分 区 缓存 


持久 化 ( 即 缓 存 ) RDD 时 通常 需要 知道 有 多 少 个 分 区 被 存储 。 下 面 的 这 个 例子 和 之 前 的 一 样 ， 除 了 现在 我 们 
要 对 RDD AFR, ETEK ia, BATTLE U 上 看 到 这 个 操作 导致 什么 被 我 们 存储 了 。 


scala> someRDD.setName("toy").cache 
res2: someRDD.type = toy ParallelCollectionRDD[O] at parallelize at <console>:12 


scala> someRDD.map(x => x).collect 
ness Array inti = Annay(l,, 27 3, 4, 5; 6, 7, 8, 9,110, 11, 12. 13, 14, 15 16 


sj ": 
注意 : 下 面 的 截图 有 4 个 分 区 被 缓存 。 


ll Al 





|) Spark shell - Storage x i z 

< C [d localhost:4040/storage/ sD = 

Spa Stages Storage Environment Executors Spark shell application UI 

Storage 

RDD Cached Fraction Size in Size in Size on 

Name Storage Level Partitions Cached Memory Tachyon Disk 

toy Memory Deserialized 1x 4 100% 2.8 KB 0.0B 0.0B 

Replicated 





编程 查看 RDD 分 区 


内 


在 Scala API 里 ，RDD 持 有 一 个 分 区 数组 的 引用 ， 你 可 以 使 用 它 找到 有 多 少 个 分 


scala> val someRDD = sc.parallelize(1 to 100, 30) 


someRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[9] at parallelize at <cons 


scala> someRDD.partitions.size 
reso: Int = 30 


EJE) 


在 Python API 里 , 有 一 个 方法 可 以 明确 地 列 出 有 多 少 个 分 区 : 


In [1]: someRDD = sc.parallelize(range(101),30) 


In [2]: someRDD.getNumPartitions() 
Out [2 39 


注意 : 上 面 的 例子 中 ， 是 故意 把 分 区 的 数量 初始 化 成 30 的 。 


阅读 原文 





数据 本 地 性 
Spark 是 一 个 并 行 数据 处理 框架 ， 这 意味 着 任务 应 该 在 离 数据 尽 可 能 近 的 地 方 执 行 ( 既 最 少 的 数据 传输 )。 
检查 本 地 性 


检查 任务 是 否 在 本 地 运行 的 最 好 方式 是 在 Spark Ul ESZ stage 信息 ， 注 意 下 面 截图 中 的 "Locality Level" 
列 显示 任务 运行 在 哪个 地 方 。 


[5 Databricks Shell - Details x ne -月 
e G A, ........amazonaws.com:4040/stages/stage/?id=360&attempt=0 e z 三 
Spak Stages Storage Environment Executors Databricks Shell application UI 
Details for Stage 360 


Total task time across all tasks: 0.1 s 


Summary Metrics for 8 Completed Tasks 


Metric Min 25th percentile Median 75th percentile Max 
Result serialization 0 ms 0 ms 0 ms 0 ms 0 ms 
time 

Duration 1 ms 2 ms 2 ms 3 ms 0.1S 
Time spent fetching 0 ms Oms Oms 0 ms 0 ms 
task results 

Scheduler delay 17 ms 17 ms 18 ms 18 ms 19 ms 


Aggregated Metrics by Executor 


Shuffle Shuffle 


Executor Task Total Failed Succeeded Shuffle Shuffle Spill Spill 
ID Address Time Tasks Tasks Tasks Input Read Write (Memory) (Disk) 
0 ip-10-0-236-90.us-west- 03s 8 0 8 0.0B 00B 0.0B 0.0B 0.0B 


2.compute.internal:38951 





Tasks 
Launch GC 
Index ID Attempt Status Locality Level ecutor Time Duration Time Accumulators Errors 
2 2748 0 SUCCESS f PROCESS LOCAL 2014/09/18 2 ms 
00:09:56 
.compute.internal 
1 2747 0 SUCCESS f PROCESS LOCAL 2014/09/18 2ms 
00:09:56 
.compute.internal 
0 2746 0 SUCCESS f PROCESS LOCAL 2014/09/18 3 ms 
00:09:56 
.compute.internal 
4 2750 0 SUCCESS f PROCESS LOCAL 2014/09/18 1 ms 
00:09:56 
.Compute.internal 
7 2753 0 SUCCESS f PROCESS LOCAL 2014/09/18 0.1s 


调整 本 地 性 配置 


你 可 以 调整 Spark 在 每 个 数据 本 地 性 阶段 (data local --> process local --> node local --> rack local --> Any) 
上 等 待 的 时 长 。 更 多 详细 的 参数 信息 请 查看 程序 配置 文档 的 Scheduling 章节 里 类 似 于 spark.locality.* 
的 配置 。 


阅读 原文 


Spark Streaming 


e ERROR OneForOneStrategy 


ERROR OneForOneStrategy 


如 果 你 在 Spark Streaming 里 启用 checkpointing, forEachRDD EAE ABS xt RAB sz BT LARA WE 
(Serializable)。 否 则 会 出 现 这 样 的 异常 "ERROR OneForOneStrategy: ... 
java.io.NotSerializableException:" 


JavaStreamingContext jssc = new JavaStreamingContext(sc, INTERVAL); 


// This enables checkpointing. 
jssc.checkpoint("/tmp/checkpoint_test"); 


JavaDStream<String> dStream = jssc.socketTextStream("localhost", 9999); 


NotSerializable notSerializable = new NotSerializable(); 
dStream.foreachRDD(rdd -> { 
if (rdd.count() == 0) { 
return null; 


} 
Sthing fanst = ndd. first), 


notSerializable.doSomething(first); 
return null; 


) ; 


// This does not work!!!! 


按照 下 面 的 方式 之 一 进行 修改 ， 上 面 的 代码 才能 正常 运行 : 


。 在 配置 文件 里 面 删除 jssc.checkpoint 这 一 行 关 闭 checkpointing。 
o 让 对 象 能 被 序列 化 。 
e 在 forEachRDD 函数 里 面 声 明 NotSerializable， 下 面 的 示例 代码 是 可 以 正常 运行 的 : 


JavaStreamingContext jssc = new JavaStreamingContext(sc, INTERVAL); 
jssc.checkpoint("/tmp/checkpoint_test"); 
JavaDStream<String> dStream = jssc.socketTextStream("localhost", 9999); 


dStream.foreachRDD(rdd -> { 
if (rdd.count() == 0) { 
return null; 
} 
String first ri 
NotSerializable notSerializable = new NotSerializable(); 
notSerializable.doSomething(first); 
return null; 


); 


// This code snippet is fine since the NotSerializable object 
// is declared and only used within the forEachRDD function. 


阅读 原文 


